查看原文
其他

多模态Gemini 提前发布

   关于Gemini的发布时间变化了很多次!

  我们9月的文章预测是在今年12月发布,后来它三季度财报电话会议又宣布推迟到明年一季度。

   然后今晚12.5 它又发布了Gemini 1.0!

    真是随意!

   这是一个真正意义的多模态模型!

 Gemini1.0实际上是一个人工智能模型家族——而不仅仅是一个。它有三种size:

  • Gemini Ultra——我们最大、最有能力的模型,适用于高度复杂的任务。
  • Gemini Pro——我们可扩展各种任务的最佳模型。
  • Gemini Nano——我们最高效的设备端任务模型。被提炼为在Pixel 8 Pro*等移动设备上运行


*为了使事情更加混乱,Gemini Nano有两种型号,Nano-1(18亿参数)和Nano-2(32.5亿参数)——分别针对低内存和高内存设备。

  但没有现场展示!

  效果也没说!

 
    Gemini Pro会在 12 月 13 Vertex AI 企业版中出现!Generative AI Studio 开发套件一并推出! Gemini 将在未来几个月内出现在 Duet AI、Chrome 和 Ads 等 Google 产品中。

     

    大模型进终端!Gemini Nano目前仅适用于 Pixel 8 Pro 上的 Android 14;有兴趣将该模型整合到他们的应用程序中的 Android 开发人员可以立即注册以先睹为快。Gemini Nano 将支持 Google 在 10 月份 Pixel 8 Pro 发布会期间预览的功能,例如 Recorder 应用中的摘要以及支持的消息应用程序的建议回复。

   Gemini Ultra 也被训练为“原生多模式”——换句话说,在大量代码库、不同语言的文本、音频、图像和视频上进行预训练和微调。 DeepMind 产品副总裁 Eli Collins 声称 Gemini Ultra 可以理解文本、图像、音频和代码中的“微妙”信息,并回答与“复杂”主题相关的问题,尤其是数学和物理。

      从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了当前最先进的结果。

Gemini Ultra 的得分高达 90.0%,是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题的能力。



  Gemini Ultra OpenAI 的GPT-4 Vision 号称更强!后者只能理解两种模态的上下文:文字和图像。除了文本和照片之外,Gemini Ultra 还可以转录语音并回答有关音频和视频的问题。

   




一些细节:

  
    对于 Gemini Ultra,我们目前正在完成广泛的信任和安全检查,包括由受信任的外部方进行红队检查,并在广泛使用之前使用微调和基于人类反馈的强化学习 (RLHF) 进一步完善模型。


   这才是 没有对外测试的原因!估计还在对齐!

    全面出现在大众眼前还需要至少1-2个月。市场最期待它读视频和音频的功能!编码 上下文阅读,gpt4已经很强大了!它跟以往一样 开了三个size模型!


   我贴一下之前的“展望”


  再过一个月 看一下实际效果和我们展望的对比!    



继续滑动看下一个

多模态Gemini 提前发布

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存